#Agentic AI
中國國內首次!8.9毫秒推理速度破紀錄,1元打穿百萬token
【新智元導讀】當所有人還在為參數內卷時,智能體真正的決勝點已經轉向了速度與成本。浪潮資訊用兩款AI伺服器直接給出了答案:一個將token生成速度幹到10毫秒以內,一個把每百萬token成本打到1元時代。Agentic AI時代,已經到來!輝達GTC大會上,老黃公開表示,當AI具備了感知和推理能力時,智能體AI就誕生了。「它如同數字世界的「機器人」,本質是理解-思考-行動」。當前,AI智能體革命已至臨界點。國內外科技巨頭紛紛加速佈局,全力爭奪這一賽道主導權。據Gartner預測,到2028年,AI智能體將參與人類約15%的日常工作決策。Georgian報告也顯示,如今,91%的企業研究主管正計畫在內部鋪開Agentic AI的落地應用。然而大規模部署之前,「互動速度」與「成本控制」仍是橫亙在許多企業面前的兩大關鍵挑戰。這裡有簡單的一個案例,就足以說明一些問題。國外一支開發團隊基於Azure的OpenAI服務,建構了一個智能體。然而,隨著時間的推移,響應變得越來越慢,一次簡單查詢耗費10秒以上。當他們用OpenAI API測試完全相同的提示詞後發現:OpenAI響應時間為1-2秒,Azure則需要5-10秒。同一款模型,同一個提示詞,卻有五倍差異。要知道,智能體的互動速度,直接決定了使用者體驗的質量。如今,人們對AI響應速度的期待,已從「秒級」進化到「毫秒級」。不僅如此,成本又直接決定了智能體產業化的可行性。多智能體的協作,對低延遲和token消耗又提出了更高的要求。分毫必爭的響應速度,決定了人們是否願意買單;而真金白銀的投入,則決定了企業能否持續推動AI智能體落地。那麼,如何才能既要又要呢?在2025人工智慧計算大會上,浪潮資訊重磅發佈了兩大破局創新系統:元腦SD200超節點AI伺服器,以及元腦HC1000超擴展AI伺服器。在元腦SD200上,DeepSeek R1大模型的Token生成速度飆升至8.9毫秒,創下國內LLM推理的最快紀錄,首次將智能體即時互動帶入「10毫秒」時代。在元腦HC1000上,LLM的推理成本被前所未有地壓縮至「1元/百萬Token」,徹底擊穿規模化部署的成本天花板。Scaling Law下一站:AI智能體爆發2025年,大模型的Scaling並未放緩,而是進入了一個全新的階段。Scaling Law的焦點,早已從「預訓練」轉向了「推理」。從o3、Gemini 2.5,到Grok 4、GPT-5,全球頂尖AI不斷迭代,每一次發佈都刷新了以往SOTA。這一演進的節奏仍在加速。爆料稱,GoogleGemini 3.0、OpenAI Sora 2都將於十月初面世。反觀國內,DeepSeek R1/V3.1-Terminus、Qwen家族等開源模型,月更、周更已成為常態。在能力邊界上,LLM正從純文字,走向了融合視覺、聽覺的多模態模型,並逐步演變為一個底層「作業系統」。可以預見,AI能力將依舊會指數級增長——LLM性能越來越強,所處理的任務長度和複雜度,也在不斷提升。我們看到,Scaling Law推動的模型參數量,從百億千億向兆、甚至百兆邁進。與此同時,在後訓練階段增加算力投入,可顯著提升LLM推理能力。為何這一轉變如此重要?因為「推理」是建構Agentic AI的基礎。眾所周知,2025年,是「智能體元年」。作為LLM的核心應用形態,智能體落地進入了爆發期。在這一賽道上,Google、OpenAI、Anthropic等巨頭競相佈局。比如,OpenAI的「編碼智能體」GPT-5-Codex深受開發者歡迎;另外,還有正在內測的「GPT-Alpha」,具備高級推理、全模態,可以呼叫工具。然而,AI智能體的產業化落地並非易事。能力、速度和成本,成為了當前AI智能體產業化決勝的「鐵三角」。AI不再侷限於技術演示、實驗,而要深入場景,成為創造可衡量價值的核心生產力。這意味著,商業成功的核心已從單純追求模型能力,轉向對能力、速度、成本三者的綜合平衡。互動速度:決定智能體的商業價值在智能體時代,速度不再是錦上添花,而是生存底線。token的吞吐速度,已成為AI應用建構的「隱形計時器」。在人機互動時代,我們對AI延遲感知不強,只要響應速度跟上人類閱讀思維即可。一般來說,只要滿足20 token/s輸出速率,就能實現流暢的閱讀體驗。而現在,AI的遊戲規則徹底改變。互動主體不再是「人-機」對話,而是「智能體-智能體」的高頻博弈。延遲那怕是幾毫秒,也可能導致決策失效。而且,在規模化商業部署中,這種差異會被無限放大,形成「以快殺慢」的絕對碾壓。智能體間互動,多為「小封包」高頻通訊。這好比修了16條車道高速公路,AI只跑兩公里,巨大的頻寬對於小包傳輸如同虛設。而傳統通訊協議「上下高速」的過程,反而成了主要耗時。延遲是會層層累加的。當前智能體僅是初露鋒芒,未來網際網路將由它們主導協作。每一個互動環節的微小延遲,都會在複雜的協同網路中呈指數級放大,最終導致整個應用響應慢到無法接受。如果延遲無法降低,那就失去了商業化的可能性。舉個栗子,在欺詐防控場景中,對智能體響應速率提出了極限要求——約10毫秒。當前,DeepSeek響應速度基本在10-20毫秒左右,其他的普遍高於30毫秒。這遠不足以支援AI的高頻互動。token成本:規模化的生死線此外,token成本,是智能體能否實現規模化擴張,並且盈利的關鍵。即便模型能力卓越,若token成本無法控制在合理範圍內,高頻、並行的實際應用,將難以持續。一方面,LLM存在著「token膨脹」效應:推理前思考過程已產生上千萬token。一個複雜任務,直接讓token成本指數級暴漲。那麼,是什麼原因導致token思考數暴增?首先必須承認的是,模型本身演算法能力差異是影響因素之一。不同LLM在設計和訓練過程中,演算法架構和最佳化策略各有優劣,而最佳化程度更高的LLM可通過更高效推理路徑,在較少token消耗下完成相同的任務。其次,底層計算架構選擇路徑等,也會進而影響token成本。因為LLM運行有依賴於底層的計算架構,包括硬體加速器、分散式運算框架等等。若是計算架構無法高效支撐LLM推理需求,比如在分佈式系統中存在通訊瓶頸或計算資源分配不均,LLM可能需要生成更多token「繞路」完成任務。當前,在做AI Coding的程式設計師,每月消耗token數比一年前平均增長約50倍,達到1000萬-5億token。企業每部署一個智能體,平均token成本大概1000-5000美元。未來五年,token消耗預計增長100萬倍。可見,不論是速度,還是成本,都成為AI智能體商業化落地的最大挑戰。面對這個難題,我們該如何解?兩大核心方案,拿下速度成本難題浪潮資訊,同一時間給出了兩大解決方案——元腦SD200超節點AI伺服器元腦HC1000超擴展AI伺服器元腦SD200若要實現更低延遲token生成能力,就需要在底層基礎設施,比如架構、互聯協議、軟體框架等關鍵點上,實現協同創新。浪潮資訊新的突破,在於元腦SD200超節點AI伺服器。如前所述,DeepSeek R1在元腦SD200上token生成速度實現了8.9毫秒。目前,最接近的競爭對手,最好的資料是15毫秒。這是國內首次將智能體即時互動,帶入到10毫秒時代。為何元腦SD200能夠取得如此大的速度突破?這背後離不開團隊,融合了智能體應用和超節點開發的技術成果。 首創多主機3D Mesh系統架構它可以實現單機64路本土AI晶片縱向擴展(Scale Up),提供4TB視訊記憶體和6TB記憶體,建構超大KV Cache分級儲存空間。而且,單節點即可跑4兆參數LLM,或同時部署多個協作的智能體。此外,在硬體設計上還支援了「開放加速模組」(OAM),相容多款本土AI晶片。 跨主機域全域統一實體位址空間團隊還通過遠端GPU虛擬對應技術,突破了跨主機域統一編址的難題,讓視訊記憶體統一地址空間擴展8倍。它還支援拓撲動態伸縮,可按需擴展128、256、512、1024卡的規模。通過Smart Fabric Manager,元腦SD200實現了單節點64卡全域最優路由,保障了晶片間通訊路徑最短,進一步縮短了通訊延遲。最重要的是,互連協議的設計,是元腦SD200實現極低延遲的關鍵。首先,團隊採用了基建的協議棧,只有物理層、資料鏈路層、事務層三層協議,原生支援Load/Store等「記憶體語義」,GPU可直接訪問遠端節點的視訊記憶體或主存。並且,基礎通訊延遲達到了「百納秒級」。其次,浪潮資訊Open Fabric原生支援由硬體邏輯實現的鏈路層重傳,延遲低至微秒級。不依賴OS、軟體棧,它就能匹配更低延遲、更高吞吐的AI推理場景。元腦SD200還採用了,分佈式、預防式流控機制,無需丟包或ECN來感知擁塞。得益於以上高效、可靠的協議設計,元腦SD200實現了業界最低0.69微秒通訊延遲。當然了,超節點的大規模商業化應用,還必須依靠整機的高可靠的設計。為此,浪潮資訊從系統硬體層、基礎軟體層、業務軟體層,建構了多層次、可靠的保障機制。系統硬體層:全銅纜電互連,短距離緊耦合傳輸,每十億小時故障率低於「光模組互聯」方案100倍基礎軟體層:創新GPU故障資訊轉儲、跨域故障關聯定位等技術,實現全方位可觀測、全端維運自動化業務軟體層:基於Profiling性能資料啟動故障預隔離和任務自動遷移,保證業務故障預測與自癒,實現推理響應不中斷在元腦SD200上,團隊還非常強悍地實現了推理性能超線性擴展。這意味著,性能的提升幅度超過了資源投入的增加幅度。以DeepSeek R1-671B為例,從16卡擴展到64卡,實現了16.3倍超線性的擴展率!具體來看,元腦SD200將這件事做到了極致的完美:通過PD分離策略、動態負載平衡等技術,充分發揮出了超節點的架構優勢,讓系統內部的處理流程變得極其高效,資源競爭和擁堵被降到最低。最終,將通訊耗時控制在了10%以內。可以設想,在實際高並行場景下,當請求量急劇攀升時,系統能夠高效地將負載均勻分佈至各個計算單元,避免了個別節點的「擁堵」拖累整個系統的響應時間。這意味著,無論是第1個請求,還是第100萬個請求,都能獲得同樣穩定且低水平的延遲。既能「跑得快」又能「跑得多」,保證絕對極致的低時延,這就是實現規模化的生命線!基於軟體生態FlagOS,元腦SD200還能繼續相容更大的生態,主流程式碼即可直接編譯運行。當前,元腦SD200已實現對Pytorch算子的全覆蓋,AI4S的典型應用可以一鍵遷移。如下所示,64個AlphaFold 3蛋白質結構預測,即可在一台元腦SD200超節點AI伺服器同時運行。速度挑戰解決之後,token成本又該怎麼打下來?元腦HC1000為此,浪潮資訊給出的答案是——元腦HC1000超擴展AI伺服器。它基於全對稱DirectCom極速架構打造,能夠聚合海量的本土AI晶片,支援極大的推理吞吐。對於一個企業來說,在起步探索、POC階段,平台通用性更加重要,可以快速驗證想法,搶佔市場先機。這對其創新、迭代的速度,至關重要。但當它進入大規模部署階段,即應用被市場驗證,token呼叫數呈指數級增長是時,核心目標又轉變為——高效、低成本營運。而元腦HC1000,就能把推理成本打到最低1元/百萬token。 全對稱DirectCom極速架構DirectCom極速架構,每計算模組配置16顆AIPU,採用了直達通訊的設計,解決了傳統的伺服器架構下,協議轉換和頻寬增強問題,實現了超低延遲。計算通訊1:1均衡配比,實現了全域的無阻塞的通訊。傳統意義上,計算與通訊是互斥關係,計算時不會傳輸,計算完成後再傳。當前,有很多將計算和通訊結合的策略,主要是把原來在傳過程,針對GPU等待時間做最佳化。除此之外,還包含了許多細粒度的任務,比如不同模型架構,不同並行情況,通訊資料區塊大小和通訊策略都要最佳化,才能提升效率。HC1000還採用全對稱的系統拓撲設計,可支援靈活PD分離、AF分離,按需配置算力,最大化資源利用率。它還支援多元算力,讓不同的晶片協同工作。 超大規模無損擴展同時,HC1000支援超大規模無損擴展,實現從1024卡到52萬卡不同規模的系統建構。計算側支援DirectCom和智能保序機制,網路側支援包噴灑動態路由,實現了深度算網協同,相較傳統RoCE方法提升1.75倍。它還支援自適應路由和智能擁塞控制演算法,將KV Cache傳輸對Prefill、Decode計算實例影響降低5-10倍。總結來看,元腦HC1000是通過「全面最佳化降本」和「軟硬協同增效」,實現了高效token生產力。它不僅創新了16卡計算模組,單卡成本暴降60%+,每卡分攤系統均攤成本降低50%。而且,它採用了大規模工業標準設計,降低了系統複雜度的同時,還提高了系統可靠性,無故障執行階段間大幅延長。系統採用的DirectCom架構保障了計算和通訊的均衡,讓算網協同、全域無損技術,實現了推理性能1.75倍飆升。通過對LLM的計算流程的細分和模型結構的解耦,實現了計算負載的靈活的按需配比。單卡MFU計算效率,最高可以提升5.7倍。元腦SD200+元腦HC1000,成為浪潮資訊兩大「殺手鐧」,分別攻克了AI智能體應用速度和成本難題。那麼,下一步又該走向何方?「專用計算架構」是未來近期,OpenAI在算力佈局上,動作頻頻:先是和甲骨文簽下3000億美元大單,隨後又獲得輝達100億美元的投資。緊接著,他們又官宣了「星際之門」五大超算全新選址計畫。這一系列舉措,無不指向一個核心事實——對於LLM訓練和部署而言,算力需求始終是一個「無底洞」。當前,AI算力的可持續發展正面臨三大關鍵挑戰:工程極限:系統規模的擴展已逼近工程能力的上限。能源壓力:算力的大幅增長給電力基礎設施帶來了巨大負擔。效能失衡:算力投入和產出失衡,商業兌現處理程序緩慢。目前,市面上的「AI晶片」仍以通用晶片為主。GPU,是增加了CUDA核心和矩陣運算Tensor核心的傳統圖形計算晶片;ASIC,則是最佳化了矩陣計算和張量處理的通用矩陣計算晶片。但正如前文所述,這些基於通用計算架構的方案,正逐漸在能效比和成本效益上觸及瓶頸。僅是單純依靠堆疊更多計算單元,或是提升製程工藝的傳統路徑,難以沿著scaling Law在算力規模、能耗、成本之間取得平衡。其原因在於,通用架構雖然適用性強、易於產業化推廣,但效率低下。相比而言,應用面較窄的專用架構,則有著更高的效率。對此,浪潮資訊AI首席戰略官劉軍認為,未來的關鍵便是在於「發展AI專用計算架構」:我們必須推動發展路徑的轉變,要從一味地追求規模擴展,轉向注重提升計算效率。並以此為基礎,重新構思和設計AI計算系統,大力發展真正面向AI應用的「專用計算架構」。具體而言,就是從硬體層面來最佳化算子與演算法,定製出大模型專用晶片,進而實現軟硬體層面的深度協同最佳化,即「演算法硬體化」。只有這樣才能讓性能的Scaling,追上token的高速增長。這不僅是突破算力瓶頸的必經之路,更是推動AI產業邁向下一階段的基石。面對大模型時代,浪潮資訊的前瞻性思考為業界指明了一條方向:通過創新計算架構,讓AI更好地走向落地。 (新智元)
Agentic AI將如何改變2026年及未來的企業資料管理?
到2026年,企業管理資料的方式可能會發生翻天覆地的變化。人類不再費時費力地清洗、合併和校驗記錄,自主AI agent將承擔這些繁重任務——決定信任那些來源、即時解決衝突,並在團隊尚未意識到問題前就給出洞察。資料統一與治理前沿公司Reltio 的創始人兼首席執行官接受了媒體訪談, 分享了Agentic AI 將率先落地的場景、它將如何重塑資料團隊的日常工作,以及業務領導者在邁向AI 驅動未來時應關注那些指標。eWeek:當你說企業資料的「agentic AI」時,2026 年它最先改變的日常流程會是那一個——匹配/合併、 survivorship(生存規則)、 enrichment、還是stewardship(資料監管)?Manish Sood:配對與合併將是2026 年最先被agentic AI 改造的日常工作。這裡是當今複雜資料環境與AI 營運對速度和信任需求最迫切的交會點。為什麼是匹配與合併?因為現實世界的資料很髒——充滿重複、不一致和歧義。在agentic AI 工作流程中,每次記錄不完全匹配時都沒有時間讓人工介入。如果AI agent要即時推薦產品、處理理賠或與客戶互動,它必須基於乾淨、統一的檔案運作。借助預訓練、LLM 驅動的匹配模型,我們已經看到從基於規則的「這是同一實體嗎?」檢查,轉向即時解決匹配的代理式工作流程,並附帶置信度評分、可審計性與合規護欄。隨著技術成熟,這將成為所有下游流程(survivorship、 enrichment、 stewardship 等)的智慧「前門」。agentic AI 不只是需要資料,它需要在毫秒級獲得可信、富含上下文、已整合的資料。這一切始於實體解析。因此,匹配與合併首當其衝。eWeek:快速描繪一下2026 年底資料團隊的一天。當agent介入後,資料管理員、分析負責人和業務owner 的工作有何不同?Sood:資料管理員:早上開始查看昨晚已由agent解決並附帶完整審計軌跡的配對建議。他們不再追重複,而是微調策略並「輔導」agent。分析負責人:收到agent關於品質異常的警報,趕在模型漂移前介入。工作重點從清洗資料轉向與業務團隊合作,打造可信賴、可重複使用的資料產品。業務owner:開啟儀表板,每個指標都有agent解釋:什麼改變了、為什麼重要、下一步該做什麼。沒有積壓,沒有瓶頸,只有答案──由受控、agent就緒的資料驅動。有何不同? agent不只是“協助”,而是行動。團隊從「修資料」轉向「釋放價值」。eWeek:如何讓agent創造單一真實來源又不失去信任?Sood:失去信任並不是因為讓agent幫忙創造真實來源,而是因為它們暗中操作。關鍵在於「受控的自主」。agent可在邊界內自主行動:解決配對、標記異常、從已驗證來源enrichment。結果?透明建立信任。利害關係人不僅看到資料,還看到為何信任它──誰批准的、用了什麼邏輯、何時執行。這就是agent贏得角色的方式——不僅揭示真相,而且持續維繫真相。eWeek:首席資料長(CDO)在企業資料管理中擁抱agentic AI 的前90 天,應期待那些早期勝利?Sood:前90 天,CDO 應能指出一些非常具體的成果。例如,最先注意到的就是AI agent能以極快速度清空匹配積壓。過去資料管理員重複的活兒,現在fraction of the time 完成,讓團隊專注更高價值任務。你還能立即獲得資料品質的可視性。預置代理可按域、按源、甚至按業務影響識別問題——你不僅改善了資料,還優先修復了最關鍵的缺陷。這種清晰度幫助領導者快速建立基線並贏得早期動能。由於分析師終於不用花時間清洗資料,你會看到「洞察時間」縮短。可信任資料產品更快成型,儀表板置信度上升,KPI 重新變得可靠。最重要的是,業務團隊看到了結果:更乾淨的資料、更快的答案,以及證明這並非另一項「技術專案」——而是從第一天就交付真實業務價值。eWeek:到2026 年底,那些KPI 能證明它真的有效?Sood:到2026 年底,agentic AI 對企業資料管理的影響應該能透過幾個清晰的KPI 顯現,它們講述了一個令人信服的故事。第一,人工工作量顯著減少。需要人工覆核的匹配/合併決策佔比下降;資料管理員在重複任務上花費的小時數大幅減少;團隊用於追蹤和解決資料品質問題的時間縮短。第二,資料啟動全面提升。儀表板和資料產品更快上線;喂給AI 模型和流程的資料更可信、更即時;業務使用者能更容易在需要時找到所需資料。第三,信任變得可衡量。資料品質評分在精準度、完整性、新鮮度上提升;血緣更清晰;策略合規率提高;因壞資料或過期資料導致的返工量顯著下降。最後,業務價值加速。從銷售到營運的更多團隊開始用agent輔助決策;更多行動被自主執行且無事故;因可信即時資料而起飛的新用例增多。一句話?更少摩擦、更多信任、更快執行——且全部可追蹤。eWeek:agentic AI 如何改變與法務、安全團隊的資料治理與合規對話?Sood:agentic AI 從根本上改變了與法務、安全團隊的對話。過去擔心“失控”或“引入風險”,如今有證據證明控制其實更強。傳統治理是寫在檔案裡的政策,事後人工執行──被動、審計繁重且緩慢。有了agentic AI,這被翻轉:AI agent在執行階段就執行治理。它們繼承脫敏與存取控制,只在預批邊界內行動,且每一步都記錄完整血緣與理由。因此,當法務或安全問“我們能信任AI 在做什麼嗎?”——答案不僅是“能”,而是“這就是它做了什麼、為什麼做、我們如何知道它符合政策”。對這些團隊而言,這不是leap of faith,而是可量化的控制升級:即時執行、完全可審計、內建監督。代理式治理不是妥協,它被證明更安全。eWeek:規則、LLM 與檢索:如何協同? agent何時應依賴確定性資料管理規則,何時應使用帶有檢索(RAG)的LLM 做決策?Sood:這不是二選一,而是確保每個AI 決策都錨定在同一個可信基礎上。agentic AI 需要一個即時、富含情境的企業資料圖譜才能可靠地行動。多數企業的客戶、產品、供應商、位置資料分散在CRM、ERP、資料湖、第三方流等數十個系統,資料分散、常孤島、不一致、非AI 就緒。Reltio 透過持續攝取所有這些來源的結構化與非結構化資料,並即時統一:利用高級匹配、 survivorship 邏輯、AI enrichment,在各域建立精準可信的檔案。但Reltio 的獨特之處不僅是產生乾淨記錄,還捕捉實體間的關係與互動——不僅知道客戶是誰,還知道他們與誰關聯、買了什麼、何時打過客服、與產品/供應商/地點如何相關。這就是「資料圖譜」。此圖譜成為AI 的「上下文系統」。它讓每個agent——無論解決配對、個人化優惠、審批理賠——都能獲得即時、可信的基礎,以做出明智決策。因此,agent不再孤立運作,而是共享相同持續更新、受控且可解釋的資料環境。這讓agentic AI 可擴展、合規、與業務邏輯對齊。所以問題不是用那一種技術,而是這些技術錨定在那裡。沒有上下文系統,再優秀的AI 也會碎片化;有了Reltio,它就能大規模可信。eWeek:自建、採購、合作的正確比例是什麼?企業應在那些場景依賴平台(如Reltio+超大規模雲端),那些場景適合客制化?Sood:在AI 與資料領域,最具創新精神的企業不會試圖全自建——而是聚焦自建差異化部分。那正確的組合是什麼?買基礎:資料統一、治理、即時基礎設施不是DIY 領地。你不想花數年拼湊自己的資料脊樑。這正是Reltio Data Cloud™ 等平台和超大規模雲端的用武之地。 (壹號講獅)
【GTC大會】黃仁勳 2 個半小時演講,輝達已經進入「Agentic AI」時代
資本看空,只是在讓輝達股票更「親民」而已。「AI 屆春晚」過去以來一直是 GTC 的外號之一,但在 GTC 2025 的開幕主題演講中,這個梗被輝達創始人、愛穿皮衣的老黃「偷了」。「我覺得 GTC 已經變成了 AI 界的超級碗」黃仁勳這樣介紹 GTC 的盛況。「但在這裡,AI 會讓我們每個人都成為贏家」。在 GTC,沒有輸家好嗎|圖片來源:輝達但面對近期股價的數次暴跌,尤其是以 DeepSeek R1 為代表的、對業內「我們真的需要這麼多 GPU 嗎」的質疑,GTC 作為「春晚」,輝達就必須拿出更多真的能鎮住場子的「硬貨」出來。雖然不知是否也是受到股價影響,今天老黃的口條,相比以往明顯要「磕巴」了不少,但他在 150 分鐘內,接連給從 AI Agent 到資料中心的 AI 晶片、再到具身智能的多個行業生態,再次指明了未來。再一次地,輝達看到了 AI 的未來,現在,他們需要讓全世界一起相信。01 Agentic 拯救輝達「It's all about Tokens」。不同往屆GTC上來先介紹輝達的硬通貨,今天的開場,老黃用40分鐘解讀了:Agentic AI時代,輝達的立身之本——越來越高效地處理tokens(詞元)。單位時間內能處理的tokens百倍萬倍增長,同時單位算力成本和能耗下降。在他看來,輝達踩中AI風口的十幾年,AI已經經歷了三代技術範式的轉移。最早是判別式AI(語音識別、圖像識別),接著是生成式AI,然後就是當下我們身處的Agentic AI,未來會是影響物理世界的Physical AI。黃仁勳秀出了 AI 技術發展的路徑|圖片來源:輝達每一代AI技術遷移,計算的方式都會發生改變。從AlexNet到ChatGPT,是從檢索的計算方式轉變為生成的計算方式。而當AI從ChatGPT那種靠預測下一個tokens、大機率出現幻覺的生成式AI,邁向Deep Research、Manus這樣的agentic AI應用時,每一層計算都不同,所需要的tokens比想像的多100倍。因為在Agentic AI應用中,上一個token是下一個token生成時輸入的上下文、是感知、規劃、行動的一步步推理。此刻,Agentic AI就是我們現在所處的時代,AI正在經歷一個新的拐點,它變得越來越智能、應用越來越廣泛,同時也需要更多的算力來支援它。老黃用同一段提示詞下,代表兩種技術範式的開源模型——Llama3.3和Deepseek-R1所消耗的tokens舉例說明,以強化學習為主導的推理類應用,消耗了越來越多的tokens、同時也讓AI應用也變得越來越可靠。這段提示詞是:「在我的婚宴上,需要7個人圍著一張桌子坐,我的父母和岳父岳母不應該坐在一起。而且,我媳婦堅持說她坐在我左邊照相時會更好看,但同時我需要坐在伴郎旁邊。我們這一輪怎麼坐?如果我們邀請牧師和我們坐在一起呢?」DeepSeek R1 的 Reasoning 模型給出了近 20 倍於傳統大模型的 Token 量|圖片來源:輝達如上圖左邊,Llama3.3作為大語言模型,用不到500個tokens快速回答,但安排的客人座位並不滿足要求。對比之下,右邊的R1作為推理模型,用掉8000多個tokens得出了正確答案。差別在於,左邊的大語言模型只嘗試了一次,右邊的推理模型嘗試了所有不同的可能性,然後反思、驗證了自己的答案。而且推理模型需要更多的計算,因為模型更複雜。R1的尺寸是6800億個參數,它的下一代版本可能有數兆個參數。更進一步,Agentic AI應用是無數次呼叫類似DeepSeek-R1做推理的過程,需要的計算只會更多。這也是為什麼ChatGPT可以免費、Deep Research和Operator這種agent免費不起的原因(當前OpenAI分別以20美元、200美元的價格提供服務)。用預訓練放緩來審判輝達還是太早了,因為,Scaling Law(縮放定律)的故事還沒有講完。長思考的模型對於 Token 的需求有數倍提升|圖片來源:輝達老黃表示,除了預訓練和後訓練(微調),測試時的Scaling Law才剛剛開始。(指模型推理階段,動態分配計算資源以提升性能。例如,根據問題複雜度自動延長“思考時間”,或通過多次推理生成多個候選答案並擇優輸出)在輝達GTC的一篇官方博文中,Tokens(詞元)被視為AI的語言與貨幣。它是AI在訓練和推理過程中處理的資料單位,用在預測、生成和推理的每一個場景。在老黃看來,加速AI工作負載的新型資料中心「AI 工廠」,就是要高效地處理這些tokens,將其從AI語言轉換為AI貨幣——即智能。通過軟硬一體最佳化,以更低的計算成本處理更多tokens。如此一來,當更複雜、智能的推理模型,需要更快、更多地吞吐tokens時,如何能夠有一套軟硬兼施的計算系統讓它更加高效,就成為AI應用能不能賺錢的關鍵。這就是Agentic AI下,新黃氏定律曲線。在性能、Token 和收入的多維度曲線下,廠商依然有盈利的機會|圖片來源:輝達而要想達到「Revenue」那個切面、讓AI應用實現商業化閉環,還得買輝達,依舊是「買得多省得多」——不,現在是「買得多,賺得多」。02 「AI工廠」的作業系統——Dynamo不久前,最瞭解輝達的「DeepSeek靠軟硬一體最佳化實現了550%的理論利潤率」新聞刷屏。別忘了,瞭解輝達的,也包括他自己。DeepSeek在Infra上的彈藥,老黃也給你配齊了!輝達此次推出了一個新的「AI 工廠」引擎的作業系統,Dynamo。有了它,tokens的吞吐和延遲還能大幅最佳化!黃仁勳講解 Dynamo 如何實現 pd 分離 | 圖片來源:輝達為了讓一個更大的模型,更高效地產出更多 token,本身已經成為了一個工程學問題。如何合理利用流水線平行、張量平行、專家平行、在途批次化、pd 分離、工作負載管理,如何管理 KV cache,各家都拿出了不同的方案。輝達此次也推出了自己的方案,Dynamo。黃仁勳把這個推理服務庫比作新時代的 VMware,能夠自動編排如何讓 AI 在推理時代跑的更好——每秒能產生更多 token。接下來黃仁勳簡直在直接對需要採購輝達的資料中心喊話了:未來的每一個資料中心都會受到功耗的限制。你的營收也會受到功耗的限制,你能使用的電力就能推算出潛在營收。採用 Blackwell,你在同樣電力下,能收穫更好的性能;再加上Dynamo,Blackwell 將能進一步最佳化——Hopper 也能最佳化,但是沒那麼多。按照輝達的說法,使用 Dynamo 最佳化推理,能讓  Blackwell 上的 DeepSeek-R1 的吞吐量提升 30 倍。Dynamo 也完全開源。引入 FP4 和 Dynamo 後 Blackwell 與 Hopper 系列晶片性能的對比 |圖片來源:輝達黃仁勳直接幫企業算起了帳:在同等功耗下,Blackwell 的性能比 Hopper 高出 4—5 倍的幅度。在「推理模型」的測試裡,Blackwell 的性能大約是 Hopper 的 40 倍。同樣的 100 兆瓦資料中心,使用 H100 需要 1400 個機架,每秒可以生產 3 億個 token,使用 GB200,只需要 600 個機架,每秒可以產生 120 億個 token。老黃:你買的越多,省的越多!100 兆瓦資料中心算帳題|圖片來源:輝達03 不只有 Blackwell「超大杯」,還有光晶片落地在硬體領域,老黃還宣佈了其 Blackwell AI 工廠平台的下一個演進版本 ———— Blackwell Ultra,旨在進一步提升 AI 推理能力。與現存的 Blackwell 不同,據老黃介紹,Blackwell Ultra 專為 AI 推理而設計的:在 DeepSeek R1 發佈之後,目前 OpenAI o1 與 Google Gemini 2.0 Flash Thinking 都是已經上市的推理模型產品。Blackwell Ultra 具體包含 GB300 NVL72 和 HGX B300 NVL16 系統,其 AI 性能比其前代產品高出 1.5 倍。GB300 NVL72 在一個機架規模設計中連接了 72 個 Blackwell Ultra GPU 和 36 個基於 Arm Neoverse 的 NVIDIA Grace CPU。與 Hopper 一代相比,HGX B300 NVL16 在大型語言模型上提供了快 11 倍的推理速度,多 7 倍的計算能力和 4 倍的記憶體。同樣支援一道發佈的 NVIDIA Dynamo 推理框架。Blackwell Ultra 作為「超大杯」登場 | 圖片來源:輝達包括 AWS、Google雲和微軟 Azure 在內的主要科技公司和雲服務提供商,將從 2025 年下半年開始提供由 Blackwell Ultra 驅動的實例。除了 Blackwell Ultra,輝達還公佈了其 2026 年和 2027 年資料中心路線圖的更新,其中就包括即將推出的下一代 AI 晶片 Rubin(以天文學家 Vera Rubin 命名)與 Rubin Ultra的計畫組態。下一代 AI 晶片代號為 Rubin | 圖片來源:輝達Rubin NVL144 機架,將與現有的 Blackwell NVL72 基礎設施直接相容。而 Rubin Ultra 的整個機架將被新的佈局 NVL576 取代。一個機架最多可容納 576 個 GPU。除了這些相對枯燥的晶片迭代,輝達還第一次公開了其光晶片在 AI 計算領域的進展,老黃將其稱之為:「下一代人工智慧的基礎設施」矽光晶片具有高運算速度、低功耗、低時延等特點,且不必追求工藝尺寸的極限縮小,在製造工藝上,也不必像電子晶片那樣嚴苛,必須使用極紫外光刻機,也就是因為「晶片戰爭」,被大眾所熟知的 EUV。目前,輝達並未直接將光晶片技術使用者 AI 晶片上,而是與台積電(TSMC)合作,採用台積電的矽光子平台Compact Universal Photonic Engine (COUPE),該平台使用台積電的SoIC-X封裝技術,同時結合了電子積體電路(EIC)與光子積體電路(PIC)。打造出兩款名為 Spectrum-X和Quantum-X 採用矽光子技術的交換機。隨著「人工智慧工廠」在世界各地興建,能耗與營運成本,已經成為困擾巨型資料中心繼續拓展的關鍵問題;因此輝達也在用矽光子技術,來嘗試進一步最佳化現有的巨型資料中心。這些也正是矽光子技術大顯身手的場景,矽光子晶片有潛力徹底改變資料處理速度,同時加快推動量子計算技術的發展。同時新光子技術還將為資料中心的 GPU 叢集節省數兆瓦的能源。「人工智慧工廠是一種具有極端規模的新型資料中心,網路基礎設施必須進行改造以跟上步伐。」黃仁勳這樣介紹矽光子晶片在資料中心的應用前景。Quantum-X InfiniBand 交換機採用特殊的線纜來加速運行 | 圖片來源:輝達據輝達公開的資訊,Spectrum-X 提供100Tb/s 的總頻寬,總吞吐量為 400Tb/s,並且提供每連接埠最高 1.6Tb/s 的速度 —— 是目前頂級銅纜傳輸最快速度的兩倍),連老黃自己都吐槽「這段介紹裡實在是太多 TB 了」。Quantum-X 光子 InfiniBand 交換機將於 2025 年晚些時候上市,而 Spectrum-X 光子乙太網路交換機計畫於 2026 年發佈。最後,老黃還宣佈了在 Rubin 之後的下一代 AI 晶片的架構命名 Feynman;這個名稱源自對量子計算領域有著重要貢獻的科學家 Richard Phillips Feynman,他同時也是現代量子電腦概念的奠基人,於 20 世紀 80 年代提出了量子電腦的概念。直到 2028 年的輝達 AI 晶片硬體路線圖 | 圖片來源:輝達根據老黃公佈的路線圖,Feynman 架構將於 2028 年登場 —— 或許到那個時候,我們真的能看到量子計算技術出現重大突破了。04 輝達機器人生態完整成型去年老黃在 GTC 上,伸出手臂,和一排人形機器人站在一起,已經成為經典一幕,而今年,模擬資料和機器人,仍然出現在 GTC 的各個角落中。甚至在演講的一開始,老黃的講稿中,直接就把物理 AI 放在了 AI 發展的最高點上。AI 發展的階段:後三個階段分別為生成式 AI、Agentic AI、物理 AI | 圖片來源:輝達不過,在整個 GTC 中,單就時長而言,涉及到物理 AI 的比重,並沒有想像中的高。自動駕駛部分和機器人部分的介紹加在一起,可能不足半個小時。雖然時長不長,輝達此次的發佈,卻仍然讓人看到了輝達的野心。對於所有 AI 而言,資料、演算法和算力,都是最重要的要素。我們熟悉的生成式 AI,是在海量的網際網路文字和視訊資料中訓練出來的,輝達的貢獻,更多的在算力方面。而走到物理 AI,輝達卻是想在資料、演算法、算力上全方面發力,一個產業地圖已經呼之慾出。在算力上,輝達有之前發佈的 Orin 和 Thor 晶片。在資料上,輝達也是重要的貢獻者。物理 AI 強調讓 AI 能夠理解物理世界,而世界在過去並沒有像積累文字和視訊資料一樣,積累足夠多的 3D 環境資料。要大量產生資料,還得看輝達推動的模擬資料的進展。而通過幾屆 GTC 下來,輝達已經全面補齊了資料的生產流程:Omniverse 數字孿生環境,相當於一個超強的 3D 編輯器,能夠生成逼真的場景和物品。開發者可以根據不同的領域、機器人類型和任務,整合真實世界的感測器資料或示範資料。Cosmos 模型訓練平台,相當於一個專門為汽車和機器人搭建的虛擬世界,利用 Omniverse 訓練 Cosmos,能夠讓 Cosmos 生成無限多樣的虛擬環境,建立既受控、又具備系統性無限擴展能力的資料。兩者結合,就能產出無限多各種各樣環境、光線、佈景的虛擬模擬資料。正如下圖所示,Omniverse 中的機器人呈糖果色,主打與現實呈現數字孿生,而 Cosmos 中的佈景則可以完全變換,生成不同的佈景。Omniverse 和 Cosmos 的機器人資料效果 | 圖片來源:輝達而針對人形機器人,輝達還特別推出了一系列其他的工具,比如今年主推的藍圖(blueprint)工具中的 Mega,就可以測試大規模的機器人部署的效果。輝達希望人形機器人的開發者能夠先採集一部分現實世界的資料,匯入 Omniverse 裡面,然後利用 Cosmos,將這部分現實世界的資料轉換成多樣化的虛擬資料,直接匯入輝達的 Issac Lab 中進行後期訓練——或者模仿學習複製行為,或者強化學習在試錯中學習新技能。在落地更快的自動駕駛領域,這種 Ominiverse 和 Cosmos 相互依仗的資料能力已經初見成效。此次的 GTC,輝達宣佈通用汽車(GM)已選擇與輝達合作,共同打造未來的自動駕駛車隊。除了對利用模擬環境對工廠和汽車的設計進行改進之外,輝達還將幫助通用汽車改進智駕體驗。其中,通用汽車重點看中的,應該就是 Cosmos 的整套端到端的 AI 訓練體系。3D 合成資料生成(3D Synthetic Data Generation)能夠通過 Omniverse,將日誌資料轉化為高精度 4D 駕駛環境,結合地圖和圖像生成真實世界的數字孿生,包括像素級的語義分割。Cosmos 再通過這些資料擴展訓練集,生成更多精準且多樣化的駕駛場景,縮小模擬與現實(sim-to-real)的差距。同時 Cosmos 為模型訓練也做了專門的最佳化,可以進行模型蒸餾和閉環訓練。而落地更慢的人形機器人領域,在去年到今年的 GTC 之間,我們甚至看到輝達在演算法上,也在發力。在去年發佈了 GR00T 模型之後,今年輝達發佈了 GR00T N1 模型。輝達宣佈這是全球首個開放的、完全可定製的通用人形機器人推理與技能基礎模型。Groot N1 基於合成資料生成與模擬學習的技術基礎,採用了「快思考與慢思考」的雙系統架構。其中,「慢思考」系統讓機器人能夠感知環境、理解指令,並規劃正確的行動,而「快思考」系統則將規劃轉換為精準、連續的機器人動作。Groot N1 架構 | 圖片來源:輝達Groot N1 本身並不是一個重大的技術突破——之前 FigureAI的 Helix 等模型,都是採取了類似的雙系統架構。輝達很明顯,希望的是通過將一套先進的模型開源,再加上完整的合成資料生成與機器人學習管道,人形機器人開發者可以在全球各個行業的不同環境和任務場景中對 Groot N1 進行後期訓練——正如 DeepSeek 對人工智慧產業的帶動一樣。輝達在機器人領域的進展似乎一直沒有停歇,一直在不斷補齊產業鏈上的每一個空缺,速度驚人。似乎要讓機器人開發,變得像目前的 AI 應用開發一樣容易,才能停歇。專門針對機器人的研發,今年輝達還與 DeepMind、迪士尼研究院(Disney Research)共同合作,聯合推出了一款新的物理引擎 Newton。黃仁勳與迪士尼機器人互動 | 圖片來源:輝達當前的大多數物理引擎都是針對特定需求設計的,例如大型機械模擬、虛擬世界或電子遊戲等,而機器人需要的,是能夠精確模擬剛體、軟體材料,支援觸覺反饋、時間序列技能學習、執行器控制,基於 GPU 加速,從而在超即時的虛擬世界中,以驚人的速度訓練 AI 模型的物理引擎。在演講的結束,一款小小的 Blue 機器人登台亮相了。Blue 機器人內建了兩個輝達晶片,而它的訓練,則是完全是在輝達的建設的訓練體系和 Newton 引擎中,通過即時模擬完成的。輝達對於機器人的投入看來不會停止,機器人演示不斷出現小故障,搶走老黃的風頭,似乎也將成為接下來幾年輝達 GTC 經常性的看點了。演講結束前的經典畫面|圖片來源:光輪智能創始人&CEO 謝晨在GTC 主演講結束之前,老黃在影片播放的間隙,擺了一個 Pose。你可以說是隨性,但從某種意義上來看,這個經典畫面——明顯是名畫「創造亞當」的一個鏡像——可能會在以後 AI 科技的歷史中不斷出現。 (極客公園)